查看原文
其他

在对话中理解“苏大强们”:语音交互的未来会是老龄化+个性化吗?

我堂堂一个熊猫 脑极体 2022-04-27

在最近的热播剧《都挺好》里,“作精老父亲”苏大强凭借他的各种金句在苏氏男团中成为了毫无疑问的C位。


在这部电视剧中,除了讨论所谓“原生家庭与子女”成长的问题以外,同样也暴露了年轻人与老年人之间的沟通问题。


苏大强时常出现的词不达意,重复地说着“我就要钱”,没完没了地抱怨他人,在剧中或许意在体现人物性格。但同济大学最近的研究告诉我们,如果类似的情况发生在生活中,则有可能是一种病理性的反映。


理解老龄语言能力退化,

AI可以做到这些事


老年人说话重复、词不达意、化繁为简,似乎已经成为了一件很常见的事。遇到这种情况,我们往往只会认为对方是“老了”“糊涂了”。可同样是老年人,很多人在九十几岁的时候,依然思维清晰、口若悬河。


同济大学主办了首届全国老年语言学讲习班,其中专家提到,婴幼儿学语的过程获得了大量的关注,可老年人语言退化的过程却不被人重视。


而同济大学老龄语言与看护研究中心得出结果称,在生活态度积极、身心脑无临床疾病的老年人与患有一些老龄疾病的老年人之间,其语言表现有着很大的差异。


那些生理年轻比实际年龄更年轻的老年人,语言表现相对正常完整,逻辑也更为清晰。但那些患有老年病的老年人们,则更容易发生发生语蚀(语速减缓、音域窄化、语言量减少、手势增多)、语误(词不达意、口误)甚至产生语言障碍直到最后完全失语。


也就是说,通过老年人语言退化的研究,可以帮助我们更好地认知老年人身体健康状况的变化,甚至可以帮助我们从多种角度认识阿尔兹海默这种至今尚未找到解决方案的疾病。


在这一过程中,我们不得不依赖于人工智能的帮助。那么在研究老年人语言退化上,AI究竟能做到些什么呢?

从同济大学和AI独角兽的合作上,我们大概能总结出以下几点。


第一, 通过深度学习对老年人语言特征进行提炼量化,让词汇量减少、语义重复、口误这些偏于感性认知的概念变成可以评分化的理性标准,方便进行下一步研究。


第二, 通过多模态研究将老年人的语言数据与心电图、脑电图等等其他数据结合起来进行综合性研究,高效地将语言衰退与其他疾病表现联系起来,发觉其中的关联。


第三, 建立方便易用的NLP模型,帮助医生可以通过一段语音来判断老年人的语言退化状态,甚至进一步推测其健康状态,提升诊疗尤其是远程诊疗的效率。


老龄化社会即将到来,

语音交互还没有准备好


当然,目前我国对老年人语言退化的研究还处于最初级的阶段,刚刚开始建立老年人语料库。相比之下,美国在1999年左右就已经开始在进行类似的工作。


AI企业参与对于老年人语言的研究,不仅仅有利于医学的发展,同样也对AI企业自身具有重要的意义。


如今我们已经达成了两种共识,第一,中国正在“坚定不移”地步入老龄化社会,国家统计局日前发布的《2018年国民经济和社会发展统计公报》显示,去年我国60周岁及以上人口首次超过了0-15岁的人口。第二,AI交互的未来一定会以语音为主,以谷歌为首的科技巨头正在将智能音箱变成各种形状塞进家中每个角落,就拿智能家居场景来说,以语音沟通各种IoT设备,已经成了可以预见的未来。



而在AI的语音识别训练中,语音音域、对话逻辑等等的变化,都会影响识别的精准度。这就造成了一个问题,如果我们没有充足的老年人语音处理经验,很有可能到几十年后,满屋子的智能家居都无法与我们顺畅沟通。


想象一下,未来的空巢青年变成了空巢老人,在想喝一杯手磨咖啡时很可能很难完整的说出“小X小X(智能音箱唤醒词),让咖啡机为我制作一杯咖啡”,而是只能重复着“手磨咖啡”这几个字,而智能音箱则一脸懵的尝试着与我们不断进行多轮交互:


“您是否要搜索‘手磨咖啡’?”


“您是否要订购‘手磨咖啡’外卖?”


……


即使在今天,对于老年语音交互的研究同样也可以在老年陪护、老年心理健康等领域发挥作用。就像面对如今大量老年人独居这种问题,就可以利用熟悉老年人语音交互模式的AI来与老年人对话,纾解他们的心理问题、保持他们的语言能力。


而在这一领域,至今仍是一片空白。


语音交互的纵与横


不难看出,如今NLP领域中关于语料的累积和处理,已经呈现出了横向和纵向两种态势。横向来看,是汉、英、日、俄以及各种少数民族语言、小语种等等语言类型。纵向来看,则是一个人从童年到老年整体语言能力的发展变化。


相较之下,更多时候我们仍然还停留在对NLP语料进行横向耕耘的阶段,不断地深挖语义,尽可能去实现足够自然的语音交互。但纵向的语言能力变化,同样对语音交互效果有着巨大的影响。


就拿儿童语音识别来说,儿童音域与成年人不同,语言能力以及对智能产品的认知理解也与成年人有巨大的差异。在谷歌助手、亚马逊Echo这类产品身上,都曾出现过儿童语音识别不准确的问题。目前已经有不少创业公司,例如来自爱尔兰的SoapBox Labs已经开始着手去建立专属于儿童的语音识别算法。



其实个体语言能力的差异何止儿童、老年人、成年人这三个维度?不同性别、不同受教育能力、不同细化年龄阶段,都可能决定其语言能力的细节差异。


在未来,当语音交互真正进入细节化竞争时,很可能出现的是语料数据处理平台化+语音交互方式个性化。


即将语音交互习惯分成几大类,如男性/女性或成人/儿童/老年人,再在冷启动时通过几句简单的对话交互获取个人用户语音数据,从中再分析出一些更细化的习惯,并在日常使用的过程中不断进化。


这一整个过程,将会像算法推荐资讯平台习得我们喜好时一样简单。


机器对人语言交互方式的细化理解,终有一天会超过人类彼此之前的理解。就像如今机器翻译的效率正在逐渐超过人类一样。


等到那一天,我们将不会再担忧自己成为“苏大强”,我们的口是心非与胡言乱语,AI能听懂就好。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存